知道了一组数据的中心位置之后, 就想知道数据距离中心位置是远还是近, 这称为离散 程度的度量。在金融分析中, 常用离散程度来衡量风险。
极差定义为
极差 $=$ 最大值-最小值
极差越小,离散程度越小。由定义可知极差只用到了一组数据中的两个数据, 而忽略了数据的分布状况等许多有用的信息, 因此仅仅用极差来度量离散程度显得很不够。
平均绝对差定义为 $$ \text { MAD }=\frac{\sum_{i=1}^n\left|x_i-\bar{x}\right|}{n} $$ 式中 $\bar{x}$ 表示样本的均值, $n$ 表示样本中观测值的数目。
总体方差定义为 $$ \sigma^2=\frac{\sum_{i=1}^N\left(X_i-\mu\right)^2}{N} $$ 式中, $\mu$ 表示总体均值, $N$ 表示总体的规模。
总体标准差定义为 $$ \sigma=\sqrt{\frac{\sum_{i=1}^N\left(X_i-\mu\right)^2}{N}} $$ 式中, $\mu$ 表示总体均值, $N$ 表示总体的规模。
样本方差定义为 $$ s^2=\frac{\sum_{i=1}^n\left(x_i-\bar{x}\right)^2}{n-1} $$ 式中, $\bar{x}$ 表示总体均值, $n$ 表示总体的规模。 样本标准差定义为 $$ s=\sqrt{\frac{\sum_{i=1}^n\left(x_i-\bar{x}\right)^2}{n-1}} $$ 式中, $\bar{x}$ 表示总体均值, $n$ 表示总体的规模。
变异系数 CV 定义为标准差除以均值。用公式表示为 $$ \mathrm{CV}=\frac{s}{\bar{x}} $$ $s$ 与 $\bar{x}$ 的含义如上所示。
偏度是衡量一组数据左右偏离的程度。 左右对称的分布偏度为 0 。左右对称的分布, 其均值、中位数和众数相等。左图所示是一个对称的分布。 右图所示是一个非对称的右偏分布。在右偏分布中, 均值大于中位数大于众数。
如图 6-6 所示是一个非对称的左偏分布。在左偏分布中, 均值小于中位数小于众数。
峰度是衡量一组数据峰值高于或低于正态分布的程度。任何一个正态分布的峰度为3 。如果一个分布的峰度大于 3 称为高峰态, 小于 3 称为低峰态。
常把峰度的数值减去 3 , 称为超额峰度。同样, 任何一个正态分布的超额峰度为 0 。如 果一个分布的超额峰度大于 0 称为高峰态, 小于 0 称为低峰态。
低峰态、高峰态与正态分布的对比如图所示 (虚线为正态分布)。
参考资料: